在启用语音的应用程序中,一个预定的热词在同时用来激活设备以便进行查询。 toavoid重复一个热词,我们提出了一个端到端的流(E2E)打算查询检测器,该查询检测器识别向设备指向的发音,并滤除针对设备的其他发出内容。提出的方法将预期的查询检测器置于E2E模型中,该模型将语音识别的不同组件折叠成一个神经网络。E2E对台面解码和预期的查询检测进行建模,也使我们可以基于早期的部分偏置检测结果, ,这对于减少潜伏期和使系统响应很重要。我们证明,与独立的预期检测器相比,检测准确性和600个MSLATENCE的相对相对改善的相对提高一级误差率(EER)的相对提高了22%。在我们的实验中,提出的模型检测用户正在用用户开始讲话后,用8.7%的Eerwithin与设备进行对话。
translated by 谷歌翻译
多对象跟踪(MOT)需要通过帧检测和关联对象。与通过检测到的边界框或将对象作为点跟踪不同,我们建议跟踪对象作为像素分布。我们将此想法实例化,以基于变压器的体系结构P3Aformer,并具有像素的传播,预测和关联。P3Aformer通过流量信息引导的Pixel-Pixel特征,以传递帧之间的消息。此外,P3Aformer采用元结构结构来生成多尺度对象特征图。在推断期间,提出了一个像素关联过程,以基于像素的预测来通过帧恢复对象连接。P3Aformer在MOT17基准上的MOTA中产生81.2 \%,这是所有变压器网络中第一个达到文献中80 \%MOTA。P3AFORMER在MOT20和Kitti基准测试上也优于最先进的。
translated by 谷歌翻译
流动学习〜(ML)旨在从高维数据中找到低维的嵌入。以前的作品专注于具有简单和理想场景的手工艺品或简单的数据集;但是,我们发现它们在带有不足数据的现实世界数据集上的性能很差。通常,ML方法主要是对数据结构进行建模,并随后处理低维嵌入,在前步骤中,不足采样数据的局部连通性较差,而后来步骤中不适当的优化目标将导致\ emph {结构失真}和\ \ \ \ \ \ \ \ \ \ \ emph {不合适的嵌入}。为了解决这个问题,我们提出了深层局部流动性歧管嵌入(DLME),这是一种新型的ML框架,可通过减少失真来获得可靠的歧管嵌入。我们提出的DLME通过数据增强来构建语义歧管,并在其平滑框架的帮助下克服了\ emph {结构失真}问题。为了克服\ emph {不合适的嵌入},我们为DLME设计了一个特定的损失,并在数学上表明它会根据我们提出的局部平坦度假设导致更合适的嵌入。在实验中,通过显示DLME对具有三种类型的数据集(玩具,生物学和图像)的下游分类,聚类和可视化任务的有效性,我们的实验结果表明,DLME胜过SOTA ML \&Chortantive Learning(CL)方法(CL)方法。
translated by 谷歌翻译
作者识别(作品ID)是生物识别学中的重要领域,旨在通过手写来识别作家。现有作家ID研究中的识别需要完整的文档或文本,限制了RETICATIC应用程序中WRITER-ID的可扩展性和灵活性。为了使Writer-id更实用(例如,在移动设备上),我们专注于一个新的问题,字母级在线编写器ID,这只需要几个书面字母作为识别线索的轨迹。与基于文档的编写器ID不同,具有丰富的上下文的识别,因此只有几个单个字母识别作者的线索更少。主要挑战是,一个人经常不时地用不同风格写一封信。我们将此问题称为在线写字风格(VAR-O-STYLES)的方差。我们以捕获标准化 - 聚合方式解决了VOR-O样式:首先,我们通过精心设计的多分支编码器提取字母轨迹的不同功能,以捕获不同的在线写入样式。然后,我们通过新颖的归一化层将所有这些样式功能转换为参考样式特征域。最后,我们通过分层关注池(HAP)聚合标准化特征,其使具有多个写入样式的所有输入字母融合到紧凑的特征向量中。此外,我们还贡献了一个大型字母级在线编写器识别数据集(LERID)进行评估。广泛的比较实验证明了所提出的框架的有效性。
translated by 谷歌翻译
Unsupervised domain adaptation (UDA) has been highly successful in transferring knowledge acquired from a label-rich source domain to a label-scarce target domain. Open-set domain adaptation (ODA) and universal domain adaptation (UNDA) have been proposed as solutions to the problem concerning the presence of additional novel categories in the target domain. Existing ODA and UNDA approaches treat all novel categories as one unified unknown class and attempt to detect this unknown class during the training process. We find that domain variance leads to more significant view-noise in unsupervised data augmentation, affecting the further applications of contrastive learning~(CL), as well as the current closed-set classifier and open-set classifier causing the model to be overconfident in novel class discovery. To address the above two issues, we propose Soft-contrastive All-in-one Network~(SAN) for ODA and UNDA tasks. SAN includes a novel data-augmentation-based CL loss, which is used to improve the representational capability, and a more human-intuitive classifier, which is used to improve the new class discovery capability. The soft contrastive learning~(SCL) loss is used to weaken the adverse effects of the data-augmentation label noise problem, which is amplified in domain transfer. The All-in-One~(AIO) classifier overcomes the overconfidence problem of the current mainstream closed-set classifier and open-set classifier in a more human-intuitive way. The visualization results and ablation experiments demonstrate the importance of the two proposed innovations. Moreover, extensive experimental results on ODA and UNDA show that SAN has advantages over the existing state-of-the-art methods.
translated by 谷歌翻译
在本文中,我们提出了一个简单的SEQ2SEQ公式,用于查看合成,其中我们将一组射线点作为输入和输出颜色对应于射线。在此SEQ2SEQ公式上直接应用标准变压器具有两个局限性。首先,标准注意力不能成功拟合体积渲染过程,因此在合成视图中缺少高频组件。其次,将全球关注应用于所有射线和像素非常效率极低。受神经辐射场(NERF)的启发,我们建议NERF注意(NERFA)解决上述问题。一方面,Nerfa将体积渲染方程视为软特征调制过程。通过这种方式,特征调制可以通过类似NERF的电感偏置增强变压器。另一方面,Nerfa执行多阶段的关注以减少计算开销。此外,NERFA模型采用射线和像素变压器来学习射线和像素之间的相互作用。 Nerfa在四个数据集上展示了比NERF和Nerformer出色的性能:DeepVoxels,Blender,LLFF和CO3D。此外,Nerfa在两个设置下建立了一个新的最新技术:单场视图合成和以类别为中心的小说视图合成。该代码将公开可用。
translated by 谷歌翻译
尺寸还原〜(DR)将高维数据映射到较低的尺寸潜在空间,并最小化定义的优化目标。 DR方法通常属于特征选择〜(FS)和特征投影〜(FP)。 FS专注于选择尺寸的关键子集,但有风险破坏数据分布(结构)。另一方面,FP将所有输入特征结合到较低的维度空间中,旨在维护数据结构。但是缺乏解释性和稀疏性。 FS和FP传统上是不兼容的类别;因此,它们尚未统一为友好的框架。我们建议理想的DR方法将FS和FP同时结合到统一的端到端多种学习框架中,同时执行基本特征发现,同时保持潜在空间中数据样本之间的内在关系。在这项工作中,我们开发了一个统一的框架,统一的尺寸还原神经网络〜(UDRN),该框架以兼容的端到端方式将FS和FP整合在一起。我们通过使用两个堆叠子网络分别实施FS和FP任务来改善神经网络结构。此外,我们设计了DR流程的数据增强,以提高方法处理广泛的功能数据集和设计的损失功能时,可以与数据增强合作。关于四个图像和四个生物数据集的广泛实验结果,包括非常高维数据,证明了DRN的优势比现有方法〜(FS,FP和FS \&FP管道),尤其是在分类和可视化等下游任务中。
translated by 谷歌翻译
深度学习的快速发展在分割方面取得了长足的进步,这是计算机视觉的基本任务之一。但是,当前的细分算法主要取决于像素级注释的可用性,这些注释通常昂贵,乏味且费力。为了减轻这一负担,过去几年见证了越来越多的关注,以建立标签高效,深度学习的细分算法。本文对标签有效的细分方法进行了全面的审查。为此,我们首先根据不同类型的弱标签提供的监督(包括没有监督,粗略监督,不完整的监督和嘈杂的监督和嘈杂的监督),首先开发出一种分类法来组织这些方法,并通过细分类型(包括语义细分)补充,实例分割和全景分割)。接下来,我们从统一的角度总结了现有的标签有效的细分方法,该方法讨论了一个重要的问题:如何弥合弱监督和密集预测之间的差距 - 当前的方法主要基于启发式先导,例如交叉像素相似性,跨标签约束,跨视图一致性,跨图像关系等。最后,我们分享了对标签有效深层细分的未来研究方向的看法。
translated by 谷歌翻译
对不确定性的深入了解是在不确定性下做出有效决策的第一步。深度/机器学习(ML/DL)已被大大利用,以解决处理高维数据所涉及的复杂问题。但是,在ML/DL中,推理和量化不同类型的不确定性的探索少于其他人工智能(AI)领域。特别是,自1960年代以来,在KRR上已经研究了信仰/证据理论,以推理并衡量不确定性以提高决策效率。我们发现,只有少数研究利用了ML/DL中的信念/证据理论中的成熟不确定性研究来解决不同类型的不确定性下的复杂问题。在本调查论文中,我们讨论了一些流行的信念理论及其核心思想,这些理论涉及不确定性原因和类型,并量化它们,并讨论其在ML/DL中的适用性。此外,我们讨论了三种主要方法,这些方法在深度神经网络(DNN)中利用信仰理论,包括证据DNN,模糊DNN和粗糙的DNN,就其不确定性原因,类型和量化方法以及其在多元化问题中的适用性而言。域。根据我们的深入调查,我们讨论了见解,经验教训,对当前最新桥接信念理论和ML/DL的局限性,最后是未来的研究方向。
translated by 谷歌翻译
在灾难后评估领域,为了及时准确的救援和本地化,人们需要知道损坏的建筑物的位置。在深度学习中,一些学者提出了通过遥感图像进行自动且高度准确的建筑损害评估的方法,事实证明,这些方法比域专家评估更有效。但是,由于缺乏大量标记的数据,这些任务可能因能够进行准确的评估而遭受损失,因为深度学习模型的效率高度依赖于标记的数据。尽管现有的半监督和无监督研究在这一领域取得了突破,但它们都没有完全解决这个问题。因此,我们建议采用一种自制的比较学习方法来解决任务,而无需标记数据。我们构建了一个新颖的非对称双网络架构,并在XBD数据集上测试了其性能。我们模型的实验结果表明,与基线和常用方法相比,改善了。我们还展示了自我监督方法建立损害识别意识的潜力。
translated by 谷歌翻译